AI語音與語音學的關係

第 12 屆 iThome 鐵人賽

DAY 4

AI & Data

文明的進程：人溝通、機器溝通到神溝通系列第 4 篇

12th鐵人賽

竹風之翼

2020-09-12 09:04:06

1837 瀏覽

分享至

曾在一則搞笑廣告中看到語音助理與主人的互動，語音助理可以透過主人說話幫忙打蔬果汁和準備餐點，也可以幫忙開啟咖啡機、電視機、收音機，跑步機，然後鬧鐘、生活記事等都無所不能，但因為劇中收音機和跑步機語音互相干擾的關係，導致跑步機速度越來越快，主人摔得四腳朝天，這時鄰居正快意的在戶外慢跑，形成一個強烈的對比。

從上述的廣告案例來說，這並非空穴來風，但其實早期就有類比設定器可以做到，只要時間設定好，又沒有停電的話，所有指定的工作都可以在設定時間內完成，即便沒有語音控制，好像也可以完成，而且完成度很高。既然科技已然和聲控有所連結，必然要有一個全球標準化的語音資料庫的建置來輔助，否則語音差異和辨識出錯是常有的事，就會像一部敖幼祥畫的一部漫畫《烏龍院》劇情，明明大師兄跟士兵傳令說要「地圖」，結果士兵中間傳到變成「壁虎」、「夜壺」等，最後一個士兵跑來脫掉褲子，跟大師兄說：『屁股來了！』

這類的辨識錯誤，在生活中是很常見，雖然最新的ＡＩ辨識系統強調可以藉由聲紋和臉部咬合去辨識出性別、年齡、種族，甚至可以從人臉資料庫中調出相關照片，例如Speech2Face的測試，只是仍存在著辨識錯誤的比率。所以必須借助語音學或聲韻學這類的專業，很多人會認為這不重要，甚至老掉牙，但實際去翻閱這些學門的書，你會驚訝到原來這一套理論是有科學依據，絕對不是天馬行空，能夠發聲的部位分成：雙脣、唇齒、舌尖（前、後、中）、舌葉、舌面前、舌根及喉嚨；發出的音有：塞音（清、濁）、塞擦音（清、濁）、鼻（濁）、邊（濁）、擦（清、濁）、半原音，其中塞音、塞擦音的清音、濁音還分送氣與不送氣，好吧！講到這裡，想必一半人以上都頭昏了，只是強調一下，任何的語言都很重視這套基準，來玩個簡單的發音遊戲，把英文「Ｓ」和「Ｔ」連續發音幾次，就會很有感，才會知道關鍵其實就在你的舌頭，任何的語音辨識系統的建置，大多都忽略到這點，所以ＡＩ的語音學習之路還很久遠，至少能練習到不會發生重複說到抓狂，還顯示錯誤動作時，就表示ＡＩ語音學習成熟了。